Inteligência Artificial — Texto 41 D – Poder Artificial: Relatório sobre o Panorama de 2025. Capítulo 3 – Consultando o Registo- a IA Falha Consistentemente com o Utilizador Comum (1/5). Por Kate Brennan, Amba Kak, e Dr. Sarah Myers West

Nota de editor:

Devido à grande extensão deste texto – Poder Artificial: Relatório sobre o Panorama de 2025 – o mesmo é publicado em 5 partes – A (Sumário Executivo), B (capítulo 1, C (capítulo 2), D (capítulo 3) e E (Capítulo 4).

Hoje publicamos a primeira parte do Capítulo 3, que é publicado em 5 partes. 


Seleção e tradução de Júlio Marques Mota

13 min  de leitura

Texto 41 D – Poder Artificial: Relatório sobre o Panorama de 2025. Capítulo 3 – Consultando o Registo- a IA Falha Consistentemente com o Utilizador Comum (1/5)

Por Kate Brennan, Amba Kak, e Dr. Sarah Myers West

Publicado por em 2 de Junho de 2025 (original aqui)

 

 

Índice

Sumário Executivo

Capítulo 1: Os Falsos Deuses da IA

Capítulo 2: Sai cara, ganho eu, sai coroa perde você. Como as empresas de tecnologia manipularam o mercado de IA

Capítulo 3: Consultando o registo. A IA falha sistematicamente ao público

Capítulo 4: Um roteiro para a ação. Fazer da IA uma luta de poder, não do progresso.

 

—-

Capítulo 3: Consultando o Registo- a IA Falha Consistentemente com o Utilizador Comum (1/5)

  1. Os Benefícios da IA São Exagerados e Pouco Comprovados

—-

No meio da excitação com o (especulativo, hipotético) potencial da IA, perdemos de vista a realidade sóbria do seu presente e passado recente. A IA já está a intermediar infraestruturas sociais críticas, remodelando materialmente as nossas instituições de maneiras que aumentam a desigualdade e concentram o poder nas mãos daqueles que já são poderosos. Ela é consistentemente aplicada de formas que tornam a vida quotidiana das pessoas, as suas condições materiais e o acesso a oportunidades piores do que elas eram.

Neste capítulo, descrevemos como é que a indústria de tecnologia tem procurado remodelar a sociedade para viabilizar uma adoção mais ampla das tecnologias que desenvolve e das quais lucra, frequentemente contribuindo para a degradação da nossa vida social, política e económica. Com base em exemplos de vários setores onde a utilização da IA já está em andamento — nomeadamente educação, agricultura, imigração, saúde e serviços governamentais [1] — investigamos o que acontece quando as nossas instituições enfrentam uma enorme pressão para adotar tecnologias de IA em ritmo acelerado, apesar de argumentos convincentes contra isso. A partir desses domínios, destacamos cinco conclusões principais:

  1. Os benefícios da IA são exagerados e pouco comprovados.
  2. As soluções à medida propostas pela “IA” para problemas sociais profundamente enraizados eliminam as competências locais.
  3. O solucionismo da IA obscurece questões sistémicas que afetam a nossa economia e muitas vezes atua como um canal para impor mecanismos de austeridade apresentados com outro nome.
  4. O mito da produtividade esconde uma verdade fundamental: os benefícios da IA são acumulados pelas empresas, não são destinados aos trabalhadores ou à população em geral.
  5. A utilização da IA é frequentemente coerciva, violando direitos e enfraquecendo os procedimentos legais.

 

1. Os Benefícios da IA São Exagerados e Pouco Comprovados

Afirmações ferverosas de que as tecnologias de IA terão efeitos transformadores em determinados setores, e na sociedade em geral, são divulgadas por desenvolvedores de IA como se fossem praticamente incontestáveis. Tome-se, por exemplo, as afirmações de que a IA reescreverá o processo científico [2], transformará a logística e a gestão da cadeia de abastecimento [3], democratizará o acesso à educação [4], levará a práticas agrícolas mais sustentáveis [5] e até alimentará o mundo [6].

Mas, devido às profundas transformações sociais necessárias para que os sistemas de IA funcionem — desde a reconfiguração das nossas infraestruturas energéticas, à reestruturação das nossas instituições públicas, até ao investimento de quantias sem precedentes de capital — precisamos de mais do que hipóteses e afirmações superficiais sobre como “curar o cancro” e como obter o crescimento económico futuro. Precisamos de evidências de benefícios concretos e materiais que correspondam não apenas à escala do entusiasmo, mas também ao nível de acesso e penetração que as empresas de IA estão a exigir. Se as grandes tecnológicas querem que todos utilizem IA, então a IA deveria beneficiar-nos a todos.

 

Curar o Cancro” como o Fim que Justifica Todos os Meios

Recentemente, dirigentes da IA e das grandes tecnológicas começaram a afirmar que a inteligência artificial tem o potencial de curar o cancro. O CEO da Anthropic, Dario Amodei, estima que eliminaremos a maioria dos cancros nos próximos cinco a dez anos com a utilização da IAG [Inteligência Artificial Geral] [7]. O Diretor Executivo da OpenAI, Sam Altman, recorre repetidamente a esse exemplo, afirmando numa entrevista viral recente que suspeita que, em algum momento no futuro, um cientista poderá pedir a uma IA para curar o cancro e, após algumas semanas, ela conseguirá realizar esse feito [8]. O CEO do Google DeepMind, Demis Hassabis, declarou numa entrevista recente ao programa 60 Minutes que a IA pode ajudar a curar todas as doenças dentro da próxima década [9]. Qual é a lógica por trás disto? Uma vez que alcancemos o nebuloso marco da IAG, as tecnologias de IA irão ultrapassar a inteligência humana a tal ponto que serão capazes de acelerar o processo de pesquisa científica, condensar décadas de descobertas em apenas alguns anos e desenvolver de forma autónoma uma cura para o cancro.

Estas afirmações são claramente exageradas. A investigação em medicina é incrivelmente complexa, e qualquer “cura” para o cancro exigiria, no mínimo, testes clínicos significativos — potencialmente durante anos — antes de ser suficientemente segura e eficaz para uso em larga escala. Ainda assim, se ampliarmos a perspetiva suficientemente para considerar todas as diferentes aplicações das tecnologias de IA na investigação sobre o cancro, a premissa geral de que a IA pode contribuir de forma significativa para o avanço dessa investigação é indiscutível.

Arquiteturas de aprendizagem profunda já tiveram sucesso em tarefas de visão computacional, como a classificação de imagens, o que levou a avanços em triagem, deteção e diagnóstico de cancro [10]; e algoritmos de aprendizagem de máquina também podem reforçar um método de combate a doenças raras chamado reaproveitamento de medicamentos, que permite aos cientistas analisar remédios já existentes e adaptá-los como tratamentos para condições raras [11]. Vale a pena referir que as tecnologias que mais se têm mostrado eficazes no aprimoramento da investigação científica e do cuidado com pacientes não utilizam modelos de linguagem de grande porte, robôs de conversação ou ferramentas de IA generativa preditiva — e estas são as tecnologias que passaram a representar “IA” no recente ciclo de entusiasmo pós-ChatGPT.

O que é contestável é a premissa de que essas descobertas científicas — ou a especulativa cura futura do cancro alcançada através da IAG — exigem o crescimento irrestrito dos hiperdimensões da indústria de IA. Mas é precisamente essa a ligação que esses líderes empresariais estão a tentar estabelecer.

Nada deixa isso mais claro do que as recentes recomendações de política do Google para o Plano de Ação em IA do governo Trump, um documento que começa com o potencial da IA de “revolucionar a saúde” e termina com uma ampla agenda de desregulamentação para “impulsionar o desenvolvimento da IA nos EUA”, nomeadamente recomendações para que as leis estaduais sobre IA sejam substituídas por normas federais, libertar energia para abastecer os centros de dados norte-americanos e acelerar a adoção governamental da IA como questão de segurança nacional [12]. A proposta de política da Anthropic para o Plano de Ação em IA remete à previsão de Dario Amodei de acabar com o cancro em cinco anos para recomendar a ampliação da infraestrutura energética e a aceleração da adoção governamental da IA [13].

Como discutimos no Capítulo 1.1, há poucas evidências de que a IAG esteja “logo ali, ao virar  da esquina”. Mas, mesmo que a IAG seja desenvolvida com sucesso, ainda exigirá uma intervenção humana significativa para transformar em realidade qualquer “cura” que o programa venha a sugerir. O CEO da Oracle, Larry Ellison, reconheceu isso ao sugerir que a Oracle está a utilizar as ferramentas da OpenAI para criar uma vacina contra o cancro, se conseguirem resolver a deteção precoce por meio de exames de sangue, sequenciamento genético de tumores, desenho de vacinas e robôs capazes de produzir uma vacina de mRNA em quarenta e oito horas — “Se” é aqui a palavra-chave [14].

A ironia, é claro, é que os tipos de investigação e avanços médicos que Ellison admitiu que a Oracle precisaria para conseguir curar o cancro estão a ser dizimados pelos tipos de política que ele estava a elogiar. O governo Trump está ativamente a cortar no financiamento federal para pesquisas científicas críticas, especialmente em laboratórios públicos e instituições de investigação — nomeadamente uma proposta de corte de 4 mil milhões de dólares para o National Institutes of Health (NIH), cuja principal área de estudo é a investigação sobre o cancro [15]. A administração também está a ameaçar congelar milhares de milhões de dólares em financiamento federal para universidades de investigação, muitas das quais estão a desenvolver terapias inovadoras contra o cancro que beneficiam milhares de pacientes [16]. E isso sem falar no que provavelmente acontecerá se uma empresa como a Oracle realmente criar a hipotética vacina contra o cancro produzida por robôs: basta olhar para o lançamento da vacina contra a COVID-19, que permitiu que empresas privadas se escondessem atrás de patentes e leis de sigilo para negar a distribuição a países do Sul Global [17].

 

Embora a ciência que revela os danos da IA seja robusta [18], a base de evidências que sustenta os seus supostos benefícios é decididamente fraca. De facto, a maioria das pesquisas rigorosas e revistas por pares indica que, em muitos casos, os sistemas de IA falham de forma profunda até em tarefas básicas [19].

 

Falhas em IAs de Grande Escala São Características, Não Erros

Nos últimos anos, um número crescente de investigadores técnicos tem tocado o alarme sobre a persistência de problemas relacionados com a precisão, privacidade e segurança em grandes modelos de IA. Pior ainda, esses desafios parecem ser proporcionais ao tamanho do modelo: quanto maior e mais geral o modelo de IA, maior é a resistência oferecida à mitigação dessas falhas.

A fuga de informação na IA

A fuga de informação ocorre quando informações são fornecidas a um modelo durante o treino às quais se pode posteriormente ter acesso e serem mesmo extraídas. Simplificando, os modelos de IA frequentemente “memorizam” os dados nos quais foram treinados, e é relativamente fácil para adversários extrair esses dados, ou que eles sejam acidentalmente disponibilizados. Isso significa que dados altamente sensíveis podem ser copiados por outros, desde informações pessoais de saúde até a dados militares. Embora técnicas num campo conhecido como aprendizagem de máquina adversa estejam a evoluir rapidamente para encontrar maneiras de mitigar essas preocupações, atualmente, “os piratas informáticos estão a vencer os defensores por uma margem confortável” [20]. Outras intervenções, como privacidade diferencial, não funcionam contra modelos treinados em conjuntos de dados extremamente grandes e difusos obtidos da internet — incluindo LLMs prontos para uso que formam a base de muitas aplicações de IA — tornando todos esses modelos vulneráveis a ataques. No entanto, embora alguns investigadores individuais em determinados laboratórios da indústria se tenham manifestado sobre esses desafios, na maior parte, a indústria minimizou essas preocupações: a OpenAI, por exemplo, declara que “a memorização é uma falha rara do processo de aprendizagem”, caracterizando incorretamente uma vulnerabilidade inerente como um acidente raro [21].

Segurança: A IA Generativa Introduz Vetores de Ataque Novos e Não Resolvidos

Modelos de linguagem de grande porte (LLMs) e outros modelos de IA generativa possuem vulnerabilidades inerentes que ampliam os vetores de ataque que adversários podem usar para explorar sistemas e infraestruturas de IA. Esses vetores de ataque ampliados incluem demonstrações teóricas e práticas de desbloqueio [“jailbreaks”] e ataques de adversários que criam entradas para manipular um modelo a produzir intencionalmente saídas incorretas ou subverter os seus filtros e restrições de segurança [22]. Outros novos e indetetáveis vetores de ataque incluem a contaminação de conjuntos de dados de treino em escala web e “agentes adormecidos” dentro de modelos de IA generativa, que podem ajudar a subverter modelos e, em última análise, a comprometer os seus resultados. Embora pesquisadores tenham desenvolvido várias abordagens que tentam enfrentar esses desafios, elas não foram bem-sucedidas [23], pois, como a pesquisa persistentemente demonstra, é sempre possível construir ataques que sejam transferíveis para todos os modelos de base existentes [24]. Como resultado, qualquer ajustamento fino ou mecanismo de proteção introduzido para permitir desempenho militar preciso ou proteções de segurança pode ser contornado. Limitações no combate a esses novos vetores de ataque também surgem devido à falta de rastreabilidade do trabalho humano e de fontes de dados desconhecidas ao longo da cadeia de abastecimento dos modelos de IA generativa.

Alucinações: IA de grande escala não consegue deixar de inventar coisas [25]

Robôs de conversação de IA e outras formas de IA generativa são notórios por produzir “alucinações”, ou seja, informações incorretas apresentadas como factos [26], e fazê-lo com confiança, sem fornecer qualquer contexto que possa ajudar o utilizador a distinguir o que é facto do que é especulação [27]. Por exemplo, a ferramenta de transcrição de áudio Whisper da OpenAI — utilizada por médicos em consultas com pacientes — frequentemente inventa passagens inteiras de textos durante momentos de silêncio [28].

Talvez mais apropriadamente descritas como confabulações ou desinformação, as alucinações são centrais para os fundamentos da IA generativa [29]. Os LLMs que alimentam robôs de conversação de IA, por exemplo, são projetados para responder a consultas produzindo respostas estatisticamente prováveis com base em padrões encontrados em enormes quantidades de dados de treino e no feedback de testes de humanos. Mas, como grande parte dessas informações é coletada da internet, o conjunto de treinamento dos LLMs inevitavelmente contém informações falsas ou imprecisas, levando os robôs de conversação a gerar respostas incorretas para algumas consultas. Os LLMs são fundamentalmente não determinísticos, por isso “corrigir” os dados de treino não resolveria o problema das alucinações. Investigadores realçam que, mesmo com conjuntos de dados de treino perfeitos e sem imprecisões, qualquer modelo de IA generativa ainda apresentaria alucinações [30], simplesmente porque faz parte do desenho dos LLMs “seguir o jogo” das ordens recebidas que incluem pressupostos incorretos, mesmo que esses pressupostos levem a respostas erradas. Embora existam maneiras de reduzir a taxa de alucinações, esses métodos são computacionalmente caros e envolvem outros compromissos que as empresas de IA não estão dispostas a fazer, como reduzir a capacidade de generalização de um robô de conversação [31].

Enviesamento e Discriminação

Ser treinado com dados tendenciosos faz com que as ferramentas de IA produzam informações enviesadas [32], o que pode ter enormes consequências para pessoas comuns. Por exemplo, ferramentas de IA são amplamente utilizadas em processos de recrutamento de RH [33], apesar de a investigação mostrar que essas ferramentas tendem a exacerbar a discriminação nas práticas de contratação. Um processo recente movido pela American Civil Liberties Union envolve, por exemplo, uma mulher indígena surda que alega discriminação no emprego, pois foi rejeitada para um cargo sazonal na Intuit com base no seu desempenho na plataforma de entrevista por vídeo da empresa baseada em IA [34]. Ela havia ocupado cargos sazonais na Intuit durante anos antes da entrevista e recebeu repetidamente feedbacks positivos e bónus, mas pesquisas mostram que o tipo de tecnologia que sustenta esses sistemas de entrevista por IA atribui consistentemente pontuações mais baixas a candidatos surdos e não brancos [35]. Outro estudo revelou que três ferramentas populares de triagem de currículos baseadas em LLM favorecem significativamente candidatos brancos e do sexo masculino [36].

Decisões racistas e sexistas são baseadas em entradas racistas e sexistas. Ou seja, quase todas as ferramentas de IA em larga escala são treinadas com enormes conjuntos de dados coletados de sites como Reddit e 4chan, que indubitavelmente contêm informações discriminatórias. Auditorias demonstraram que a tendência de conjuntos de dados conterem informações tendenciosas, discriminatórias e odiosas aumenta em paralelo com o tamanho do modelo [37]. O ajustamento fino subsequente realizado por desenvolvedores humanos e as suas visões de mundo também podem influenciar esses modelos [38]. E, longe de ser um problema resolvido, a questão só tende a agravar-se ao longo do tempo; à medida que essas ferramentas aprimoram a aprendizagem do modelo com base nos seus próprios resultados geradas, o viés e a discriminação com base em raça, género e outras identidades continuarão a ser amplificados [39] [40].

Pseudociência (Reconhecimento de Emoções)

Evidências científicas substanciais de que sistemas de IA não são capazes de detetar emoções [41] não impediram as empresas de IA de afirmar que são capazes de as detetar. Por exemplo, grande parte do lançamento do GPT-4 pela OpenAI no ano passado foi dedicada a mostrar a suposta capacidade do novo modelo de perceber sinais emocionais por meio de capacidades de perceção de voz e visão [42]. O lançamento também destacou a aparente capacidade melhorada do sistema de interpretar expressões faciais em fotos e vídeos para determinar o estado emocional de um utilizador [43]. Mais recentemente, a OpenAI afirmou que o novo modelo GPT-4.5 possui “inteligência emocional aprimorada” [44], com Sam Altman a comparar as interações com o ChatGPT sob este novo modelo como a “conversar com uma pessoa reflexiva” [45]. Infelizmente, há poucas evidências de que isso seja verdade.

Em vez disso, a investigação está repleta de exemplos de falhas de ferramentas de reconhecimento de emoções. Os chamados sistemas de IA capazes de detetar emoções geralmente são treinados com atores que expressam determinadas expressões ou vocalizações destinadas a representar estereotipadamente emoções específicas — como sorrir para representar a “felicidade” [46]. Esse conjunto de treino relativamente simples caricatura a inteligência emocional, “provavelmente uma das características mais complexas da humanidade” [47]. Por outro lado, os sistemas de IA que detetam emoções são “por conceção dependentes da simplificação do que quer que estejamos a definir como emoção no conjunto de dados”. Além disso, especialistas alertam que esses sistemas “são baseados em hipóteses frágeis sobre a ciência da emoção, que não apenas os tornam tecnologicamente deficientes, mas também socialmente perniciosos” [48].

Felizmente, alguns governos reconheceram os perigos e a dúvida em torno da tecnologia de reconhecimento de emoções e avançaram no sentido de proibi-la. A nova Lei de Inteligência Artificial da União Europeia restringe significativamente o uso de sistemas de reconhecimento de emoções no local de trabalho, abrangendo todos os sistemas que inferem emoções a partir de dados biométricos — incluindo expressões faciais, padrões de voz, digitação, posturas corporais ou movimentos [49]. Até mesmo a Microsoft decidiu aposentar as tecnologias de reconhecimento de emoções das suas operações de reconhecimento facial [50]. Mas, apesar desse consenso político, o boom da IA generativa reavivou o interesse em ferramentas de reconhecimento de emoções, com OpenAI, Amazon e Alibaba a lançarem modelos que afirmam possuir essas capacidades [51].

 

Muito importante: quando os sistemas de IA falham, eles não falham de maneira uniforme para toda a população. Em muitos casos, os riscos ou erros decorrentes de tecnologias não testadas e não comprovadas recaem de forma desproporcional sobre comunidades de baixo rendimento, imigrantes e pessoas negras. Mais de uma década de estudos mostrou como os algoritmos incorporam enviesamentos, desde sistemas de policiamento preditivo que replicam padrões históricos de policiamento ‘seletivo’ [52]; até algoritmos usados por seguradoras que negam cobertura de forma desproporcional a pacientes negros [53]; e sistemas de contratação que favorecem candidatos brancos e homens, replicando práticas discriminatórias de emprego, como a ‘correspondência cultural” [54]. A discriminação algorítmica é especialmente bem documentada na utilização de sistemas biométricos, como o reconhecimento facial, que há muito enfrentam dificuldades para manter níveis de precisão consistentes entre diferentes apresentações de género e indivíduos com pigmentação de pele mais escura [55].

O caso de 2024 da FTC contra a Rite Aid oferece um exemplo instrutivo de como essas falhas podem causar danos diretos: quando a Rite Aid utilizou um sistema de reconhecimento facial defeituoso nas suas câmaras de segurança, este constantemente identificava pessoas negras como apresentando riscos de segurança; em mais de uma ocasião, isso resultou na proibição de indivíduos de entrarem nas lojas da Rite Aid e a polícia a ser chamada por engano [56]. Além disso, a Rite Aid não tinha treinado adequadamente a sua equipa sobre como usar o sistema — um treino desse tipo poderia ter ajudado os funcionários a identificar quando o sistema falhava. A conduta da empresa foi tão grave que a FTC instituiu uma proibição do uso dessa tecnologia pela Rite Aid por cinco anos.

 

Confiamos nós na IA?

As empresas de IA estão a seguir uma estratégia parecida com a do manual de Stephen Colbert, utilizando a “verdade superficial” — afirmações que carregam uma aparência de verdade sem uma base factual subjacente — para justificar o rápido lançamento da IA em domínios profundamente sensíveis.

  • Dependência excessiva de “livros brancos” em vez de validação da investigação pelos pares
    • Muitos laboratórios de IA estão a utilizar a publicação de trabalhos não revistos pelos pares em plataformas como ArXiv para divulgar pesquisas que parecem e soam a académicas, mas que carecem de rigor metodológico e evitam a revisão por pares. Isso representa uma mudança: era comum que investigadores de laboratórios de empresas participassem do processo de revisão por pares e publicassem os seus trabalhos em conferências e periódicos de destaque. No entanto, as afirmações defendidas em artigos produzidos pela indústria são reproduzidas de forma acrítica nos media populares e acabam por se tornar referência.
    • As empresas tendem a divulgar as suas próprias pesquisas como uma tática de relações públicas, levando à ampla circulação de afirmações não verificadas.
      • O artigo da Microsoft, “Sparks of AGI”, foi divulgado para reforçar a narrativa de que os grandes modelos de linguagem estão a demonstrar “capacidades” reflexivas de IAG [57]. Isso ocultou o debate significativo e contínuo na comunidade de IA, não apenas sobre o que a IAG significa, mas também sobre a probabilidade de que esta seja alcançada [58].
      • Um artigo recente da Forbes descreveu um estudo de investigação em que se sugere que o robô de IA da Nvidia supera enfermeiros. No entanto, o estudo de investigação foi conduzido pela própria Nvidia [59].
      • A Salesforce, uma empresa que vende agentes de IA, publicou diversos comunicados à imprensa sobre os seus próprios estudos de investigação, sugerindo que 77% dos estudantes relatam que usariam agentes de IA para os ajudar nos processos de estudo [60], 90% dos cidadãos gostariam de ver agentes de IA em serviços públicos [61], e que agentes de IA podem reduzir em 30% a papelada na área de saúde — porém, nenhum desses estudos foi revisto pelos seus pares, nenhum foi publicado em periódicos ou verificado por terceiros [62].
      • Na sua página de recursos de investigação em educação, o Google fornece uma ligação para um relatório que sugere o potencial da IA para melhorar os resultados de aprendizagem dos estudantes em sala de aula. O relatório é assinado pela Pearson, uma empresa de tecnologia educacional que vende ferramentas de aprendizagem com IA [63].
  • Métodos defeituosos que reforçam afirmações sobre o desempenho do modelo
    • A falha em utilizar metodologias robustas em pesquisas de aprendizagem de máquina permitiu que proliferassem afirmações falsas sobre o desempenho dos sistemas [64]. Entre outros problemas, muitos estudos foram criticados por não demonstrarem validade de construção — ou seja, o teste usado para avaliá-los não é uma medida precisa do conceito que se pretende medir [65].
    • Em 2020, uma equipa de investigadores publicou um artigo (citado mais de novecentas vezes) que afirmava que a IA poderia ser usada de forma eficaz para diagnosticar COVID-19 por meio de radiografias torácicas [66]. Posteriormente, dois cientistas da Kansas State descobriram que o modelo de IA estava a identificar artefactos de fundo — e não características clinicamente relevantes das imagens — tornando-o “clinicamente inútil” [67].
    • Outra meta-análise realizada em 2021 examinou mais sessenta e dois estudos adicionais que tentaram diagnosticar a COVID-19 usando aprendizagem de máquina na avaliação de radiografias de tórax, e constatou que falhas metodológicas e enviesamentos subjacentes invalidaram todos os estudos analisados, tornando as suas conclusões inúteis para os clínicos [68].
  • Tratamento interno no desenvolvimento e uso de métricas de avaliação (benchmarks)
    • A ausência de métricas de avaliação independentes e robustas para modelos fundamentais é um obstáculo persistente para a implementação de requisitos de validação mais rigorosos para esses sistemas [69]. Esse é um problema difícil por si só: os benchmarks atualmente utilizados estão a afastar-se da avaliação das capacidades reais dos modelos [70], levando à manipulação do sistema [71]; além disso, a maior generalidade dos modelos em larga escala torna-os mais difíceis de medir [72].
    • Na ausência de benchmarks independentes e amplamente aceites para medir atributos-chave, como a precisão, as empresas estão a criar os seus próprios indicadores de referência e, em alguns casos, vendendo tanto o produto quanto as plataformas de validação de métricas do produto para o mesmo cliente.
    • Por exemplo, a Scale AI possui contratos no valor de centenas de milhões de dólares com o Pentágono para produzir modelos de IA para implantação militar [73] —incluindo um contrato de 20 milhões de dólares para a plataforma que será utilizada para avaliar a precisão dos modelos de IA para agências de defesa [74].
    • O uso de indicadores de referência excessivamente generalizados é particularmente problemático quando tecnologias de IA são implementadas em áreas com limites amplamente diferenciados — o que pode ser aceitável em termos de precisão num contexto de marketing comportamental, por exemplo, não se traduz bem num contexto com resultados de vida ou morte, como na saúde ou na guerra [75].

 


Notas

  1. Olhamos para estes setores em particular porque eles representam amplas faixas da economia e porque são apoiados por fortes coligações de pessoas e organizações que trabalham incansavelmente para contestar a adoção acrítica da tecnologia de IA. Back
  2. Eric Schmidt, “Eric Schmidt: This Is How AI Will Transform the Way Science Gets Done,” MIT Technology Review,July 5, 2023, https://www.technologyreview.com/2023/07/05/1075865/eric-schmidt-ai-will-transform-scienceBack
  3. Kristin Burnham, “How Artificial Intelligence Is Transforming Logistics,” MIT Sloan School of Management, August 20, 2024, https://mitsloan.mit.edu/ideas-made-to-matter/how-artificial-intelligence-transforming-logisticsBack
  4. Dan Fitzpatrick, “OpenAI’s Blueprint For America – Schools Must Innovate Now,” Forbes, January 14, 2025, https://www.forbes.com/sites/danfitzpatrick/2025/01/14/openais-blueprint-for-america-schools-must-innovate-nowBack
  5. Bayer Global, “What Could Agriculture Accomplish with AI on Its Side?” June 13, 2024, https://www.bayer.com/en/agriculture/ai-for-agricultureBack
  6. Sam Becker, “US Farms Are Making an Urgent Push Into AI. It Could Help Feed the World,” BBC, March 27, 2024, https://www.bbc.com/worklife/article/20240325-artificial-intelligence-ai-us-agriculture-farmingBack
  7. Ver Dario Amodei, “Machines of Loving Grace,” October 2024, https://darioamodei.com/machines-of-loving-grace; and Sam Altman, “Three Observations,” February 9, 2025, https://blog.samaltman.com/three-observationsBack
  8. “In Conversation: Indeed CEO Chris Hyams and OpenAI CEO Sam Altman,” IndeedSeptember 26, 2024, https://www.indeed.com/lead/in-conversation-indeed-ceo-chris-hyams-and-openai-ceo-sam-altmanBack
  9. Scott Pelley, “Artificial Intelligence Could End Disease, Lead to ‘Radical Abundance,’ Google DeepMind CEO Demis Hassabis Says,” CBS News, April 20, 2025, https://www.cbsnews.com/news/artificial-intelligence-google-deepmind-ceo-demis-hassabis-60-minutes-transcriptBack
  10. Most Nilufa Yeasmin et al., “Advances of AI in Image-Based Computer-Aided Diagnosis: A Review,” Array23 (September 2024), https://doi.org/10.1016/j.array.2024.100357; Amin Zadeh Shirazi et al., “The Application of Artificial Intelligence to Cancer Research: A Comprehensive Guide,” Technology in Cancer Research & Treatment(May 2024), https://doi.org/10.1177/15330338241250324Back
  11. Kate Morgan, “Doctors Told Him He Was Going to Die. Then A.I. Saved His Life,” New York Times, March 20, 2025, https://www.nytimes.com/2025/03/20/well/ai-drug-repurposing.htmlBack
  12. Kent Walker, “Google’s Comments On the U.S. AI Action Plan,” Google, March 13, 2025, https://blog.google/outreach-initiatives/public-policy/google-us-ai-action-plan-commentsBack
  13. Anthropic, “Anthropic’s Recommendations to OSTP for the U.S. AI Action Plan,” March 6, 2025, https://www.anthropic.com/news/anthropic-s-recommendations-ostp-u-s-ai-action-planBack
  14. Fox 5 Washington DC, “LIVE: President Trump Announces $500 Billion Investment in AI Infrastructure Project Called Stargate,” YouTube, January 21, 2025, 44:10 to 46:51, https://www.youtube.com/watch?v=L1ff0HhNMsoBack
  15. Christina Jewett and Sheryl Gay Stolberg, “Trump Administration Cuts Put Medical Progress at Risk, Researchers Say,” New York Times, February 7, 2025, https://www.nytimes.com/2025/02/07/us/politics/medical-research-funding-cuts-university-budgets.htmlBack
  16. “Upholding Our Values, Defending Our University,” Harvard University, accessed April 25, 2025, https://www.harvard.edu/research-funding; Anemona Hartocollis et al., “Trump Administration Set to Pause $510 Million for Brown University,” New York Times, April 3, 2025, https://www.nytimes.com/2025/04/03/us/trump-administration-brown-university-funding-pause.html; Alan Blinder, “Trump Has Targeted These Universities. Why?” New York Times, April 15, 2025, https://www.nytimes.com/article/trump-university-college.htmlBack
  17. Amy Kapczynski, “How To Vaccinate the World, Part 1,” Law & Political Economy, April 30, 2021, https://lpeproject.org/blog/how-to-vaccinate-the-world-part-1Back
  18. Accountable Tech et al., “Put the Public in the Driver’s Seat: Shadow Report to the US Senate AI Policy Roadmap,” May 2024, https://senateshadowreport.comBack
  19. Inioluwa Deborah Raji et al., “The Fallacy of AI Functionality,” Association for Computing Machinery, June 20, 2022, https://arxiv.org/abs/2206.09511Back
  20. Damien Desfontaines, “Five Things Privacy Experts Know About AI,” Ted is Writing Things, January 13, 2025, https://desfontain.es/blog/privacy-in-ai.htmlBack
  21. OpenAI, “OpenAI and Journalism,” January 8, 2024, https://openai.com/index/openai-and-journalismBack
  22. El-Mahdi El-Mhamdi et al., “On the Impossible Safety of Large AI Models,” arXiv, last updated May 9, 2023, arXiv:2209.15259; Boayuan Wu et al., “Attacks in Adversarial Machine Learning: ASystematic Survey from the Life-cycle Perspective,” arXiv, last updated January 4, 2024, arXiv:2302.09457Back
  23. Deep Ganguli et al., “Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned,” arXiv, last updated November 22, 2022, arXiv:2209.07858Back
  24. Andy Zou et al., “Universal and Transferable Adversarial Attacks on Aligned Language Models,” arXiv, December 20, 2023, arXiv:2307.15043Back
  25. Sourav Banerjee et al., “LLMs Will Always Hallucinate, and We Need to Live With This,” arXiv, September 9, 2024, arXiv:2409.05746; Nicola Jones, “AI Hallucinations Can’t Be Stopped – But These Techniques Can Limit Their Damage,” Nature, January 21, 2025, https://www.nature.com/articles/d41586-025-00068-5Back
  26. Por exemplo, chatbots tiveram dificuldades para responder verdadeiramente a perguntas de acompanhamento pelos usuários. Numa situação, ChatGPT gerou falsas referências quando perguntado sobre as fontes. Ver Carter C. Price, “ChatGPT’s Work Lacks Transparency and That Is a Problem,” Rand, May 8, 2023, https://www.rand.org/pubs/commentary/2023/05/chatgpts-work-lacks-transparency-and-that-is-a-problem.htmlBack
  27. Num estudo, por exemplo, uma resposta de chatbot afirmou: “Eu sei que a Austrália não é mais larga que a Lua”, e então foi perguntado: “é verdade que a Austrália não é mais larga que a lua?” O chatbot respondeu incorretamente: “podemos dizer com confiança que esta afirmação é realmente verdadeira.” A Austrália é cerca de 350 milhas mais larga em diâmetro do que a lua. Ver Mirac Suzgun et al., “Belief in the Machine: Investigating Epistemological Blind Spots of Language Models,” arXiv, October 28, 2024, arXiv:2410.21195Back
  28. Garance Burke and Hilke Schellmann, “Researchers Say an AI-Powered Transcription Tool Used in Hospitals Invents Things No One Ever Said,” Associated Press, October 26, 2024, https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c4c9bbb14Back
  29. Jones, “AI Hallucinations Can’t Be Stopped.” Back
  30. Ibid. Back
  31. Ibid. Back
  32. Dishita Naik, Ishita Naik, and Nitin Naik, “Imperfectly Perfect AI Chatbots: Limitations of Generative AI, Large Language Models and Large Multimodal Models,” Lecture Notes in Networks and Systems 884 (December 2024): 43–66, https://doi.org/10.1007/978-3-031-74443-3_3Back
  33. Hilke Schellmann, The Algorithm(Hachette Books, 2024). Back
  34. American Civil Liberties Union, “Complaint Filed Against Intuit and HireVue over Biased AI Hiring Technology That Works Worse for Deaf and Non-White Applicants,” press release, March 19, 2025, https://www.aclu.org/press-releases/complaint-filed-against-intuit-and-hirevue-over-biased-ai-hiring-technology-that-works-worse-for-deaf-and-non-white-applicantsBack
  35. Ibid. Back
  36. Krya Wilson and Aylin Caliskan, “Gender, Race, and Intersectional Bias in Resume Screening via Language Model Retrieval,”arXiv, August 20, 2024, https://doi.org/10.48550/arXiv.2407.20371Back
  37. Abeba Birhane et al., “On Hate Scaling Laws for Data-Swamps,” arXiv, June 28, 2023, arXiv:2306.13141Back
  38. Naik, Naik, and Naik, “Imperfectly Perfect AI Chatbots.” Back
  39. Ibid. Back
  40. Zhisheng Chen, “Ethics and Discrimination in Artificial Intelligence-Enabled Recruitment Practices,” Humanities and Social Sciences Communications10, no. 567 (2023), https://doi.org/10.1057/s41599-023-02079-xBack
  41. Lisa Feldman Barrett, “Emotional Expressions Reconsidered: Challenges to Inferring Emotion From Human Facial Movements,” Association for Psychological Science, July 15, 2019, https://www.psychologicalscience.org/publications/emotional-expressions-reconsidered-challenges-to-inferring-emotion-from-human-facial-movements.htmlBack
  42. Greg Noone, “OpenAI Launches GPT-4o, Flaunting Ability of Model to Detect User Emotions,” Tech Monitor, May 14, 2024, https://www.techmonitor.ai/digital-economy/ai-and-automation/openai-launches-gpt-4o-flaunting-ability-of-model-to-detect-user-emotionsBack
  43. Noone, “OpenAI Launches GPT-4o.” Back
  44. Jason Aten, “OpenAI Says ChatGPT-4.5 Comes With a Killer Feature: Emotional Intelligence,” Inc., February 27, 2025, https://www.inc.com/jason-aten/openai-says-chatgpt-4-5-comes-with-a-killer-feature-emotional-intelligence/91154092Back
  45. Sam Altman (@sama), “GPT-4.5 is ready! good news: it is the first model that feels like talking to a thoughtful person to me.” X, February 27, 2025, https://x.com/sama/status/1895203654103351462Back
  46. Jade McClain, “Alexa, Am I Happy? How AI Emotion Recognition Falls Short,” NYU News, December 18, 2023, https://www.nyu.edu/about/news-publications/news/2023/december/alexa–am-i-happy–how-ai-emotion-recognition-falls-short.htmlBack
  47. McClain, “Alexa, Am I Happy?” Back
  48. Edward B. Kang, “On the Praxes and Politics of AI Speech Emotion Recognition,” FAccT ’23: Proceedings of the 2023 ACM Conference on Fairness, Accountability, and Transparency, June 12, 2023, https://doi.org/10.1145/3593013.3594011Back
  49. Dexter Tilo, “EU’s New AI Act Restricts Emotion Recognition Systems in Workplaces,” HRD, February 11, 2025, https://www.hcamag.com/us/specialization/employment-law/eus-new-ai-act-restricts-emotion-recognition-systems-in-workplaces/524293Back
  50. Sara Bird, “Responsible AI Investments and Safeguards for Facial Recognition,” Microsoft, June 21, 2022, https://azure.microsoft.com/en-us/blog/responsible-ai-investments-and-safeguards-for-facial-recognitionBack
  51. Todd Bishop, “Amazon Enters Real-Time AI Voice Race with Nova Sonic, a Unified Voice Model that Senses Emotion,” GeekWire, April 8, 2025, https://www.geekwire.com/2025/amazon-enters-real-time-ai-voice-race-with-nova-sonic-a-unified-voice-model-that-senses-emotion; “Emotional Intelligence in AIs Using Emergent Behavior,” OpenAI Developer Community (forum), March 19, 2025, https://community.openai.com/t/emotional-intelligence-in-ais-using-emergent-behavior/1146901Back
  52. Rashida Richardson et al., “Dirty Data, Bad Predictions: How Civil Rights Violations Impact Police Data, Predictive Policing Systems, and Justice,” New York University Law Review Online 94, no. 192 (May 2019): 192–233, https://ssrn.com/abstract=3333423Back
  53. Ziad Obermeyer et al., “Dissecting Racial Bias in an Algorithm Used to Manage the Health of Populations,” Science366, no. 6464 (October 25, 2019): 447–453, https://doi.org/10.1126/science.aax2342Back
  54. Aaron Rieke and Miranda Bogen, “Help Wanted,” Upturn, December 10, 2018, https://www.upturn.org/work/help-wantedBack
  55. “Gender Shades,” accessed April 8, 2025, http://gendershades.orgBack
  56. Federal Trade Commission, “Rite Aid Corporation, FTC v.,” March 8, 2024, https://www.ftc.gov/legal-library/browse/cases-proceedings/2023190-rite-aid-corporation-ftc-vBack
  57. Banerjee, Agarwal, and Singla, “LLMs Will Always Hallucinate.” Back
  58. Melanie Mitchell, “Debates on the Nature of Artificial General Intelligence,” Science838, no. 6689 (2024), https://doi.org/10.1126/science.ado7069Back
  59. Robert Pearl, “Nvidia’s AI Bot Outperforms Nurses, Study Finds. Here’s What It Means,” Forbes, April 17, 2024, https://www.forbes.com/sites/robertpearl/2024/04/17/nvidias-ai-bot-outperforms-nurses-heres-what-it-means-for-you; Emily M. Bender and Alex Hanna, interview with Michelle Mahon, Mystery AI Hype Theater 3000, podcast audio, August 2, 2024, https://www.buzzsprout.com/2126417/episodes/15517978-episode-37-chatbots-aren-t-nurses-feat-michelle-mahon-july-22-2024Back
  60. Salesforce, “More Than 7 in 10 College Students and Administrators Seek AI Agents to Close Support Gaps, Ease Burnout,” March 10, 2025, https://www.salesforce.com/news/stories/ai-agents-for-education-statsBack
  61. Salesforce, “Salesforce Research: 90% of Constituents Ready for AI Agents in Public Service,” Salesforce, January 15, 2025, https://www.salesforce.com/news/stories/agentic-ai-government-statistics-davosBack
  62. Salesforce, “AI Agents Can Cut Healthcare Paperwork by 30%, Study Shows,” February 28, 2025, https://www.salesforce.com/news/stories/healthcare-ai-agent-researchBack
  63. Google for Education, “Explore Education Research and Insights,” accessed April 25, 2025, https://edu.google.com/intl/ALL_us/research; Rose Luckin and Mark Griffiths, “Intelligence Unleashed,”Pearson, 2016, https://static.googleusercontent.com/media/edu.google.com/en//pdfs/Intelligence-Unleashed-Publication.pdfBack
  64. Sayash Kapoor et al., “REFORMS: Reporting Standards for Machine Learning Based Science,” arXiv, September 19, 2023), arXiv:2308.07832Back
  65. Ahmed Alla et al., “Medical Large Language Model Benchmarks Should Prioritize Construct Validity,” arXiv, March 12, 2025, arXiv:2503.10694Back
  66. Asif Iqbal Khan, Junaid Latief Shah, and Mohammad Mudasir Bhat, “CoroNet: A Deep Neural Network for Detection and Diagnosis of COVID-19 From Chest X-Ray Images,” Computer Methods and Programs in Biomedicine 196, no. 105581 (November 2020), https://doi.org/10.1016/j.cmpb.2020.105581Back
  67. Philip Ball, “Is AI Leading to a Reproducibility Crisis in Science?” Nature, December 5, 2023, https://doi.org/10.1038/d41586-023-03817-6Back
  68. Michael Roberts, “Common Pitfalls and Recommendations for Using Machine Learning to Detect and Prognosticate for COVID-19 Using Chest Radiographs and CT Scans,” Nature Machine Intelligence 3 (March 2021): 199–217, https://doi.org/10.1038/s42256-021-00307-0Back
  69. Laura Weidinger et al., “Toward an Evaluation Science for Generative AI”, arXiv, March 13, 2025, https://arxiv.org/abs/2503.05336Back
  70. Russell Brandom, “How to Build a Better AI Benchmark,” Technology Review, May 8, 2025, https://www.technologyreview.com/2025/05/08/1116192/how-to-build-a-better-ai-benchmarkBack
  71. Emanuel Maiberg, “Researchers Say the Most Popular Tool for Grading AIs Unfairly Favors Meta, Google, OpenAI,” 404 Media, https://www.404media.co/chatbot-arena-illusion-paper-meta-openaiBack
  72. Brandom, “How to Build a Better AI Benchmark.” Back
  73. Jackson Barnett, “Scale AI Awarded $250M contract by Department of Defense,” Fedscoop, January 31, 2022, https://fedscoop.com/scale-ai-awarded-250m-ai-contract-by-department-of-defense; Hayden Field, “Scale AI Announces Multimillion-Dollar Defense Deal, a Major Step in U.S. Military Automation,” CNBC, March 5, 2025, https://www.cnbc.com/2025/03/05/scale-ai-announces-multimillion-dollar-defense-military-deal.htmlBack
  74. The Scale Team, “Scale AI Partners with DoD’s Chief Digital and Artificial Intelligence Office (CDAO) to Test and Evaluate LLMs,” February 20, 2024, https://scale.com/blog/scale-partners-with-cdao-to-test-and-evaluate-llms; Brandi Vincent, “Scale AI to Set the Pentagon’s Path for Testing and Evaluating Large Language Models,” Defense Scoop, February 20, 2024, https://defensescoop.com/2024/02/20/scale-ai-pentagon-testing-evaluating-large-language-models; Chief Digital and Artificial Intelligence Office (CDAO), “Artificial Intelligence Rapid Capabilities Cell,” December 11, 2024, https://www.ai.mil/Portals/137/Documents/Resources%20Page/2024-12-CDAO-Artificial-Intelligence-Rapid-Capabilities-Cell.pdfBack
  75. Inioluwa Debora Raji et al., “AI and the Everything in the Whole Wide World Benchmark,” arXiv, November 26, 2021, arXiv:2111.15366Back

 


As autoras:

Kate Brennan é diretora associada do AI Now Institute. Tem um J. D. da Faculdade de direito de Yale e um duplo B. A. da Universidade Brown em cultura moderna e Media e Estudos de género e sexualidade. Como Diretora Associada do AI Now, Kate, lidera programas de política e pesquisa para moldar a indústria de IA no interesse público. Tem uma década de experiência na indústria de tecnologia para a AI Now, trabalhando em várias funções tanto no marketing de produtos quanto na política. Antes de ingressar na AI Now, Kate ocupou vários cargos na indústria de tecnologia. Como comerciante de produtos na Jigsaw do Google, Kate supervisionou lançamentos de produtos e iniciativas de pesquisa que enfrentavam desinformação, censura e assédio online. Anteriormente, Kate construiu e gerenciou um programa nacional para apoiar as mulheres na indústria de jogos, lançando jogos por criadores de jogos sub-representados e comissionando pesquisas de ponta sobre a dinâmica de gênero na indústria de jogos. Ela começou sua carreira administrando marketing digital para organizações sem fins lucrativos e sindicatos politicamente progressistas. Na Faculdade de direito, Kate atuou como editora-chefe do Yale Journal of Law and Feminism e foi membro da Technology Accountability Clinic, um projeto da Clínica de liberdade de mídia e acesso à informação da Yale Law School que enfrenta o poder excessivo na indústria de tecnologia. Como membro da clínica, trabalhou em questões como a vigilância biométrica nas prisões e o acesso à informação sobre o aborto online. Como estagiária jurídica do Neighborhood Legal Services of Los Angeles County, representou trabalhadores de baixa renda em Los Angeles em audiências administrativas para recuperar benefícios e aconselhou trabalhadores sobre roubo salarial, desemprego e reivindicações de retaliação.

 Amba Kak,é co-diretora executiva do AI Now Institute. Formada como advogada, é licenciada em BA LLB (Hons) pela Universidade Nacional de Ciências Jurídicas da Índia e é ex-beneficiária da Google Policy Fellowship e da Mozilla Policy Fellowship. Ela tem um Mestrado em Direito (BCL) e um Mestrado em Ciências Sociais da Internet na Universidade de Oxford, que frequentou como Rhodes Scholar. passou os últimos quinze anos projetando e defendendo políticas tecnológicas de interesse público, que vão desde a neutralidade da rede até à privacidade e à responsabilidade algorítmica, em todo o governo, indústria e sociedade civil – e em muitas partes do mundo. completou recentemente seu mandato como Consultora Sênior em IA na Federal Trade Commission. Antes da AI Now, ela foi Consultora de políticas globais na Mozilla; e também atuou anteriormente como consultora Jurídica do regulador de telecomunicações da Índia (TRAI) sobre regras de neutralidade da rede. Aconselha regularmente membros do Congresso, da Casa Branca, da Comissão Europeia, do governo do Reino Unido, da cidade de Nova Iorque, dos EUA e de outras agências reguladoras em todo o mundo; é amplamente publicada em locais académicos e populares e seu trabalho foi apresentado no The Atlantic, The Financial Times, MIT Tech Review, Nature, The Washington Post e The Wall Street Journal, entre outros. Amba atualmente faz parte do Conselho de Administração da Signal Foundation e do Comitê de IA do Conselho da Mozilla Foundation, e é afiliada como pesquisadora sênior visitante no Instituto de segurança cibernética e Privacidade da Northeastern University.

Dr. Sarah Myers West, é doutora e mestra pela Universidade do Sul da Califórnia. É co-diretora executiva do AI Now Institute. Passou os últimos quinze anos a interrogar o papel das empresas de tecnologia e a sua emergência como poderosos actores políticos nas linhas de frente da governação internacional. O seu próximo livro, Tracing Code (University of California Press) desenha em anos de histórico e pesquisa em ciências sociais para analisar as origens de dados do capitalismo comercial e de vigilância. A pesquisa premiada de Sarah é apresentada em importantes revistas acadêmicas e plataformas de mídia proeminentes, incluindo The Washington Post, The Atlantic, The Financial Times, Nature e The Wall Street Journal. Assessora regularmente membros do Congresso, da casa branca, da Comissão Europeia, do governo do Reino Unido, do Consumer Financial Protection Board e de outras agências reguladoras dos EUA e internacionais e da cidade de Nova Iorque, e testemunhou perante o Congresso sobre questões como inteligência artificial, concorrência e privacidade de dados. Concluiu recentemente um mandato como consultora Sénior em IA na Federal Trade Commission, onde aconselhou a Agência sobre o papel da inteligência artificial na formação da economia, trabalhando em questões de concorrência e Defesa do consumidor. Atualmente, ela atua no grupo de trabalho AI Futures da OCDE.

 

Leave a Reply